پروژهی یوفونیا نمونهای از تلاشهای گوگل در بهکارگیری هوش مصنوعی و فناوری تشخیص گفتار برای فراهمآوردن امکان استفادهی افراد مبتلا به اختلالات گفتاری از تکنولوژیهای روز دنیا است.
گوگل که مدتی است تلاشهایش برای فراهمکردن امکان استفادهی افراد معلول از تکنولوژیهای روز دنیا را آغاز کرده، اخیرا پروژهای بهنام یوفونیا (Euphonia) را رونمایی کرده است. یوفونیا برگرفته از نام ماشین سخنگویی است که اواخر قرن هجدهم و اوایل قرن نوزدهم، جوزف یوفونیا، مخترع آلمانی، ابداع کرد و ساخت.
درواقع، این پروژه تلاشی برای ارتقای قابلیتهای فناوری تشخیص گفتار بهمنظور فراهمآوردن امکان درک صحبتهای افراد مبتلا به مشکلات تکلم و اختلالات گفتاری است؛ چراکه سیستمهای پردازش گفتار طبیعی موجود قابلیت درک صحبتهای افراد مبتلا به بیماریهای پیشروندهای همچون ALS را ندارد. بیماری اسکلروز جانبی آمیوتروفیک (Amyotrophic Lateral Sclerosis) که استیون هاوکینگ نیز به آن مبتلا بود، نوعی بیماری نورونهای حرکتی است که موجب تخریب پیشرونده و ترمیمناپذیر دستگاه عصبی میشود. در این بیماری، دستگاه عصبی مرکزی و ماهیچهها بهویژه ماهیچههای دست، پا، ساعد، سر و گردن بهشدت صدمه میبینند و فرد مبتلا معمولا دچار ناتوانیهای حرکتی میشود و پس از سه تا پنج سال جان خود را از دست میدهد.
در ویدئو زیر، دیمیتری کانوسکی (Dimitri Kanevsky) از محققان گوگل که خود نیز مبتلا به نوعی اختلال گفتاری است، نتایج تحقیقات اخیر این شرکت را در عمل آزمایش میکند و نهایتا از محصول تولیدی در پروژهی Parrotron نتیجه مطلوب را میگیرد. محصول تولیدشده در این پروژه، گفتار افراد مبتلا به اختلالات تکلم را مستقیما و بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل میکند.
ازآنجاکه مبنای یادگیری در تکنولوژی ASR (تشخیص گفتار خودکار یا Automatic Speech Recognition)، صحبتکردن بهشیوهی معمول و متداول است، سیستمهایی که از این تکنولوژی بهره میگیرند، برای افرادی که با لهجهی خاصی صحبت میکنند یا مبتلا به اختلالات تکلم هستند، چندان کاربردی نیست و حتی دربارهی مبتلایان به اختلالات گفتاریِ نهچندان حاد، همچون ALS نیز، نرخ خطای کلمهی درخورتوجهی را شاهد هستیم. نرخ خطای کلمه (WER) معمولترین شاخص برای مقایسهی عملکرد سیستمهای ASR است و از تقسیم مجموع تعداد کلمات اشتباه تشخیص دادهشده و کلمات گفتهنشدهی اضافهشده و کلمات گفتهشدهی تشخیص دادهنشده، بر تعداد کل کلمات گفتهشده بهدست میآید.
احتمالا اینجا هم متهم ردیف اول، مجموعه دادههایی هستند که سیستم برای یادگیری دراختیار دارد. این یکی از تعصبات ضمنی رایجی است که نمونههای مشابهاش را در مدلهای دیگر هوش مصنوعی و زمانیکه نرخ خطای سیستم بیشتر از حد موردانتظار محقق است، شاهد هستیم.
شاید ناتوانی سیستمهای تشخیص چهره در شناسایی افراد رنگینپوست در مقایسه با ساخت سیستم تشخیص گفتاری که برای افراد مبتلا به اختلالات گفتاری کاربردی نیست، خطای چندان چشمگیری بهشمار نیاید؛ اما در هر دو مورد، بخشی از مشکل سیستم دراختیار نداشتن دادههای مربوط به گروههای خاصی از افراد است. این امر برای محققان گوگل بهمعنای جمعآوری ساعتها دادهی صوتی از افراد مبتلا به ALS است و ازآنجاکه نوع و میزان پیشرفت مشکلات گفتاری در این بیماران از فردی به فرد دیگر متفاوت است، طبیعی است انتظار داشته باشیم فرایند تطبیق این تکنولوژی با اثرهای ناشی از یک بیماری، کاملا از روند تطبیق آن با مثلا لهجهای غیرمعمول متفاوت باشد.
پژوهشگران پروژهی یوفونیا ضمن ارزیابیهای خود دریافتهاند وقتی این مدل نمیتواند واجِ اداشده را بهدرستی تشخیص دهد، دو نوع خطا ممکن است رخ داده باشد: ۱. سیستم واج اداشده و بهتبع آن، کلمه را بهاشتباه تشخیص داده باشد؛ ۲. سیستم توانایی تشخیص واج اداشده را نداشته و بهناچار آن را حدس زده باشد. در این صورت، نزدیکی آوایی یک یا چندین واج در یک کلمه، ممکن است به خطا در جایگزینی واجها و بهتبع آن، اشتباه در تشخیص کلمه منجر شود.
حل مشکل دوم با توجه به قابلیتهای هوش مصنوعی، چندان دشوار بهنظر نمیرسد. اگر سیستم در جملهی «من روزی یک سیب میخورم»، نتواند «س» را در کلمه «سیب» تشخیص دهد، برای مدلی که از هوش مصنوعی بهره میگیرد، احتمال آنکه گوینده جملهی «من روزی یک شیب میخورم» را بیان کرده باشد، با احتمال بیان جملهی مذکور بهصورت صحیح یکسان نیست. سیستم با بهرهگیری از هوش مصنوعی و آنچه دربارهی الگوهای کلامی زبان انسان میداند و با درنظرداشتن موضوع صحبت گوینده و زمینههای مرتبط با آن، میتواند جملهی صحیح را حدس بزند.
اطلاعات بیشتر دربارهی این پروژه که همچنان مراحل تحقیقاتی را پشتسر میگذارد، در مقالهای با عنوان Personalizing ASR for Dysarthric and Accented Speech with Limited Data دردسترس است که ماه آینده در کنفرانس Interspeech استرالیا ارائه خواهد شد.
.: Weblog Themes By Pichak :.